查看原文
其他

探索具身智能计算系统的未来

刘少山 丁宁 深圳市人工智能与机器人研究院
2024-09-15


具身智能通过集成人工智能到各种机器人实体中,赋予它们环境感知、学习和互动能力,是机器人进化与环境适应的关键。

Figure AI最近推出的人形机器人便是一个突出例证,该机器人结合了OpenAI的先进具身智能技术,能够精准地解读周遭环境并针对不同刺激做出恰当响应,代表了具身智能领域的一大飞跃。

但是,计算挑战是实现具身智能的一大障碍,特别是如何在各种机器人形态中实现智能化,确保计算过程低延迟、低能耗、高通量和高可靠性,是全球机器人产业共同面临的问题。

近期,深圳市人工智能与机器人研究院在这方面做出了领先的尝试。研究院具身智能中心主任刘少山博士与常务副院长丁宁博士在《Communications of the ACM》发表文章,梳理了构建具身智能计算系统的关键方向,包括软件架构、计算体系结构和设计自动化,为该领域的未来发展提供了清晰的路线图。《Communications of the ACM》作为计算机科学与技术领域最权威的期刊,长期以来一直是技术创新和学术交流的重要平台,其发表的内容深受学术界和产业界的尊重与关注。

原文链接:https://cacm.acm.org/blogcacm/building-computing-systems-for-embodied-artificial-intelligence/


EMBODIED AI 

01

具身智能的计算挑战

具身智能对计算系统的要求十分苛刻,特别是在灵活性、计算效率和可扩展性方面。以下是目前具身智能在计算领域所面临的主要挑战:

软件栈的复杂性:具身智能系统必须融合环境感知、物理交互和复杂任务执行等多方面功能,需要高度协调不同组件,如传感器数据处理、复杂算法运算及执行器控制。此外,为满足多样化机器人形态和任务需求,必需的是一个功能丰富的具身智能软件栈。在单一软件架构下实现这些元素间的高效协作增加了系统复杂性,提出了构建无缝且高效软件生态的挑战。

计算架构的不足:现有计算框架难以满足人工智能对实时大数据流处理、高并发、稳定性与能效的复杂需求。这些限制降低了机器人在动态环境中的最佳性能表现,突显了针对具身智能特定需求的创新计算架构的急迫需求。

数据获取的瓶颈:具身智能系统的发展依赖于大量、高质量的数据集。但从机器人与环境的互动中收集数据极具挑战,因环境复杂多变,加上现实世界数据采集的技术和后勤难题。这一数据瓶颈限制了开发速度,并减弱了人工智能机器人根据环境学习、适应和进化的能力。


EMBODIED AI 

02

具身智能计算系统的思考

要应对这些挑战,需要采取多方面的方法,重点是通过分层软件架构实现灵活性,通过创新计算机架构实现计算效率,以及通过数据生成自动化实现可扩展性。

2.1 实现灵活性的分层软件栈

分层软件架构通过提供必要的抽象层次,有效地管理软件复杂性并增强系统的灵活性:

控制适配层:此层作为核心软件与硬件之间的中介,简化了传感器、执行器及控制系统的集成。它将底层复杂性抽象化,允许开发者聚焦于行为逻辑与决策算法,从而提升开发效率。一个典型例子是Hello Robot的伸展身体库,它有效地桥接了软硬件之间的沟通。

核心机器人功能层:位于控制适配层之上,这一层包含了机器人从移动到用户交互等基础操作的功能库。它为开发人员提供了一套丰富的高级接口,确保了不同硬件平台之间的兼容与灵活性,极大地提高了开发效率。例如,Meta的家用机器人项目就利用了这一层的服务,为机器人导航和操作提供基本功能支持。

机器人应用层:应用层为开发复杂的智能应用提供了软件接口。通过这一层,开发者可以将先进的人工智能应用整合到机器人中,使其能够更好地理解并与周围环境互动。RT-2和Clip等项目是应用层实践的例证,它们展示了如何通过高级应用增强机器人的环境适应性和互动能力。

2.2. 具身智能计算机体系结构

为实现具身智能应用的高效计算,我们需要一种新型的计算机体系结构,旨在整合多模态传感器,优化机器人核心功能的计算支持,并实时处理基于模型的复杂机器人应用。

传感器集成与同步:对于装备了多种多模态传感器的机器人,有效的传感器整合与同步是至关重要的。质量良好的传感器数据依赖于十多个传感器的精确集成和同步,这需要一个能提供统一时间源的硬件模块来确保数据的准确采集和整合。

数据流加速器架构:由于机器人计算遵循数据流模式,引入数据流加速器架构可以有效提升计算效率。该架构旨在将系统的计算能力的大部分留给复杂的人工智能应用,确保机器人核心功能仅占用总计算能力的一小部分。

人工智能代理硬件加速器:每个具身智能应用可视为一个独立的人工智能代理(AI Agent),主要通过视觉语言模型(VLM)或视觉语言动作模型(VLAM)理解并执行复杂指令。关键挑战是在边缘计算平台上实时执行这些庞大的模型。硬件加速的关键在于优化对高维数据的处理,而软件方面的剪枝、量化和知识蒸馏技术则可大幅减小模型大小,保持精度。

2.3. 实现可扩展性的具身智能设计自动化

为了设计、优化和验证人工智能系统,业界面临一个普遍问题:如何克服数据的稀缺性,尤其是在多样化场景中。一个有效的解决方案是结合使用合成数据和真实世界数据。通过在仿真环境中使用合成数据训练强化学习控制器,然后采用少量的真实世界数据进行模型优化,可以有效提升模型的通用性和实用性。此外,应用迁移学习技术允许这些优化过的模型适应并应用于广泛的真实世界场景。在此背景下,数字孪生技术的应用展现出巨大潜力。通过创建数字孪生仿真,深圳市人工智能与机器人研究院构建了一个自动化的设计流水线,从而解决数据获取的挑战,并大大提升人工智能系统的可扩展性。这种方法不仅节省时间和成本,还能在安全的虚拟环境中测试和验证AI系统的性能,确保其在部署到实际环境之前已经达到所需的可靠性和效果。因此,数字孪生仿真成为了实现具身智能设计自动化和提高系统可扩展性的关键技术路径。


EMBODIED AI 

03

结论

开发针对具身智能的计算系统是目前机器人计算领域的前沿问题。通过攻克软件集成的挑战、优化计算架构以及采纳设计自动化策略,深圳市人工智能与机器人研究院旨在使具身智能机器人在各种复杂场景中提供更加精细和效率更高的服务。这种跨学科的研究努力将不仅为机器人技术带来创新的飞跃,也为机器人与物理世界的无缝整合铺就了道路,展现了未来与机器人共生的无限可能。


相关阅读:

AIRS牵头组建广东省具身智能机器人创新中心

深圳具身智能研究突破 推动机器人技术与行业需求深度融合

一个全新面向人体姿态估计的人形具身交互系统,可用于家庭服务机器人、主动健康等领域



继续滑动看下一个
深圳市人工智能与机器人研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存